这份报告探索分析的是一份红葡萄酒质量数据集,该数据集包含 1599 条红酒数据,包括 11 个关于红酒的化学成分的变量和质量评分,其中质量评分由⾄少 3 名葡萄酒专家得出,分数在 0(⾮常差)和 10(⾮常好)之间。
## [1] 1599 12
## 'data.frame': 1599 obs. of 12 variables:
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide density
## Min. :0.01200 Min. : 1.00 Min. : 6.00 Min. :0.9901
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00 1st Qu.:0.9956
## Median :0.07900 Median :14.00 Median : 38.00 Median :0.9968
## Mean :0.08747 Mean :15.87 Mean : 46.47 Mean :0.9967
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00 3rd Qu.:0.9978
## Max. :0.61100 Max. :72.00 Max. :289.00 Max. :1.0037
## pH sulphates alcohol quality
## Min. :2.740 Min. :0.3300 Min. : 8.40 Min. :3.000
## 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50 1st Qu.:5.000
## Median :3.310 Median :0.6200 Median :10.20 Median :6.000
## Mean :3.311 Mean :0.6581 Mean :10.42 Mean :5.636
## 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :4.010 Max. :2.0000 Max. :14.90 Max. :8.000
查看数据集中有多少空值:
## [1] 0
该数据集有 12 个变量,1599 行数据,并且无空值。
## [1] 0.8248906
由质量评分的条形图可以看出:质量评分为 5 的最多,评分为 6 次之,占总数据的 82.5%。 评分大于 6 的红酒算是质量上乘,评分小于 5 的红酒质量算比较差了。
那么,红酒的质量评分到底与哪些化学成分有关呢?
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
上图是固定酸度分布的直方图,酸度值在 7 附近达到峰值,主要分布在 6.0 - 11.0 之间,整体上呈现右偏分布。
已知信息:葡萄酒中的固定酸不易挥发。
## fixed.acidity quality
## 46 4.6 4
## 96 4.7 6
## 822 4.9 7
固定酸度的最小值 4.6 对应的质量评分为 4,猜测固定酸度与质量评分可能有关?
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
上图是挥发性酸度的直方图,酸度值主要集中在 0.2 - 1.0 之间,特别要注意的是:在 0.1 附近以及 1.1 以上出现了一些异常值。
已知信息:挥发性酸含量太高会导致令人不快的醋味。
由此猜想:挥发性酸度值较高的那些异常值可能会导致红酒质量评分较低?
## volatile.acidity quality
## 1 1.580 3
## 2 1.330 5
## 3 1.330 5
## 4 1.240 5
## 5 1.185 3
## 6 1.180 5
## 7 1.130 4
## 8 1.115 4
挥发性酸度值为 1.58 的葡萄酒的评分为 3,大概是由于令人不快的醋味导致了较低的评分,猜测挥发性酸度可能对质量评分有影响。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
上图是柠檬酸含量的直方图,柠檬酸含量在 0 附近达到峰值,在 0.5 处也有一个显著的峰值,在 1 附近有异常值。
已知信息:柠檬酸含量很少,可为葡萄酒增添新鲜度和风味。
由此猜想:过多的柠檬酸含量或者不含柠檬酸会导致葡萄酒质量评分低?
## citric.acid quality
## 152 1 4
## citric.acid quality
## 1 0 5
## 2 0 5
## 5 0 5
## 6 0 5
## 8 0 7
柠檬酸含量为 1 的葡萄酒数据的质量评分为 4,确实导致葡萄酒质量变差,但是不含柠檬酸对红酒质量评分没有显著影响。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.539 2.600 15.500
以上左图为残留糖分布的直方图,右图为对其经过对数处理的直方图。
由于残留糖存在大量的长尾数据,所以对其横坐标使用对数处理。
已知信息:残留糖是指发酵停止后残留的糖量,很少发现少于1克/升的葡萄酒,而超过45克/升的葡萄酒被认为是甜的。
以上右图中观察到在小于 1 克/升处有异常值,猜想:该葡萄酒质量评分一定很高?
## residual.sugar quality
## 1018 0.9 6
## 1019 0.9 6
残留糖含量为 0.9,质量评分为 6,只能算是中等品质的葡萄酒,并没有品质很好。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
以上左图为氯化物含量分布的直方图,右图为对其经过对数处理的直方图。
由于氯化物含量存在大量的长尾数据,所以对其使用对数处理。
氯化物含量的分布经过对数处理之后,比较接近正态分布,在 0.01 附近处有异常值。
猜想:此异常值的葡萄酒数据质量评分如何?
## chlorides quality
## 837 0.012 7
## 838 0.012 7
该葡萄酒的质量评分为 7,可以猜想:是否氯化物含量越低,质量越好?
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
上图为游离二氧化硫含量分布的直方图,明显呈现右态分布,游离二氧化硫含量分布的峰值出现在 5 附近,主要集中在 2.5 - 40,含量在 40 以上分布极少了。
已知信息:游离二氧化硫可以防止微生物的生长和葡萄酒的氧化。
## free.sulfur.dioxide quality
## 531 1 6
## 536 1 6
## 774 1 6
## 775 2 6
## free.sulfur.dioxide quality
## 397 68 5
## 401 68 5
## 1245 72 6
## 1559 66 5
由上述表格所示:特别少或含量在 65 以上的游离二氧化硫对红酒的质量评分未表现出显著影响。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 22.00 38.00 46.47 62.00 289.00
以上是总二氧化硫含量分布的直方图,主要集中在 10 - 120 之间,峰值出现在20 附近。
已知信息:在低浓度下,葡萄酒中几乎检测不到二氧化硫,但是当游离二氧化硫浓度超过50 ppm时,二氧化硫在葡萄酒的香气和味道中变得明显。
由此猜想,游离二氧化硫浓度超过 50ppm 会显著影响葡萄酒的质量?
## free.sulfur.dioxide total.sulfur.dioxide quality
## 15 52 145.0 5
## 16 51 148.0 5
## 397 68 124.0 5
## 401 68 124.0 5
## 585 54 80.0 7
## 926 53 77.0 7
## 927 52 73.0 6
## 983 51 70.0 6
## 1132 57 135.0 5
## 1245 72 160.0 6
## 1296 51 77.5 5
## 1297 51 77.5 5
## 1359 52 98.0 5
## 1435 55 95.0 6
## 1436 55 95.0 6
## 1559 66 115.0 5
上述表格中是 游离二氧化硫浓度超过 50ppm 的数据,但暂未看出对红酒质量评分的影响。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9956 0.9968 0.9967 0.9978 1.0037
上图为葡萄酒密度分布的直方图,接近正态分布。
已知信息:葡萄酒的密度取决于酒精和糖的百分比,上图接近正态分布,密度值主要集中在 0.995 - 1 之间。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.210 3.310 3.311 3.400 4.010
上图为葡萄酒pH值分布的直方图,葡萄酒呈酸性,pH 值主要集中在 3.0 - 3.6 之间。
## pH quality
## 152 2.74 4
pH 为 2.74 的葡萄酒质量评分为 4,可能是太酸导致的评分过低。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.5500 0.6200 0.6581 0.7300 2.0000
上图为硫化盐含量分布的直方图,分布值主要集中在 0.5 - 1 之间。 已知信息:硫化盐作为一种葡萄酒添加剂,可提高二氧化硫气体(SO2)的含量,可作为抗微生物剂和抗氧化剂。
## sulphates quality
## 87 1.95 6
## 92 1.95 6
## 93 1.98 5
## 152 2.00 4
硫化盐含量高于 1.8 的红酒质量评分未表现出明显规律,只有含量为 2.00 的红酒质量评分为 4,表现出了对红酒质量的一定影响。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
上图为酒精浓度分布的直方图,酒精浓度主要集中在 9 - 13 之间,在 9.5 附近达到峰值。
## alcohol quality
## 518 8.4 3
## 545 8.4 6
同一酒精度数,质量评分却不一样,所以暂未看出酒精度数对红酒质量的影响。
针对该数据集,主要感兴趣的是红酒的质量与什么化学成分有关?
主要特性是:volatile.acidity(挥发性酸度)、citric.acid(柠檬酸)、residual.sugar(残留糖)、free.sulfur.dioxide(游离二氧化硫)
其它 7 个化学成分也可以帮助探索对红酒质量的影响: fixed.acidity(固定酸度)、chlorides(氯化物)、total.sulfur.dioxide(总二氧化硫)、density(密度)、pH、sulphates(硫酸盐)、alcohol(酒精度数)
没有
由于residual.sugar(残留糖)、chlorides(氯化物)的直方图含有大量的长尾数据,所以对其做了对数处理。
变量之间的相关系数
## fixed.acidity volatile.acidity citric.acid residual.sugar
## fixed.acidity 1.00 -0.26 0.67 0.11
## volatile.acidity -0.26 1.00 -0.55 0.00
## citric.acid 0.67 -0.55 1.00 0.14
## residual.sugar 0.11 0.00 0.14 1.00
## chlorides 0.09 0.06 0.20 0.06
## free.sulfur.dioxide -0.15 -0.01 -0.06 0.19
## total.sulfur.dioxide -0.11 0.08 0.04 0.20
## density 0.67 0.02 0.36 0.36
## pH -0.68 0.23 -0.54 -0.09
## sulphates 0.18 -0.26 0.31 0.01
## alcohol -0.06 -0.20 0.11 0.04
## quality 0.12 -0.39 0.23 0.01
## chlorides free.sulfur.dioxide total.sulfur.dioxide density
## fixed.acidity 0.09 -0.15 -0.11 0.67
## volatile.acidity 0.06 -0.01 0.08 0.02
## citric.acid 0.20 -0.06 0.04 0.36
## residual.sugar 0.06 0.19 0.20 0.36
## chlorides 1.00 0.01 0.05 0.20
## free.sulfur.dioxide 0.01 1.00 0.67 -0.02
## total.sulfur.dioxide 0.05 0.67 1.00 0.07
## density 0.20 -0.02 0.07 1.00
## pH -0.27 0.07 -0.07 -0.34
## sulphates 0.37 0.05 0.04 0.15
## alcohol -0.22 -0.07 -0.21 -0.50
## quality -0.13 -0.05 -0.19 -0.17
## pH sulphates alcohol quality
## fixed.acidity -0.68 0.18 -0.06 0.12
## volatile.acidity 0.23 -0.26 -0.20 -0.39
## citric.acid -0.54 0.31 0.11 0.23
## residual.sugar -0.09 0.01 0.04 0.01
## chlorides -0.27 0.37 -0.22 -0.13
## free.sulfur.dioxide 0.07 0.05 -0.07 -0.05
## total.sulfur.dioxide -0.07 0.04 -0.21 -0.19
## density -0.34 0.15 -0.50 -0.17
## pH 1.00 -0.20 0.21 -0.06
## sulphates -0.20 1.00 0.09 0.25
## alcohol 0.21 0.09 1.00 0.48
## quality -0.06 0.25 0.48 1.00
与 quality(质量评分)相关系数绝对值大于 0.2 的都可以考虑研究。
按照相关系数绝对值从大到小排列:
0.48 - alcohol(酒精)
-0.39 - volatile.acidity (挥发性酸度)
0.25 - sulphates(硫酸盐)
0.23 - citric.acid(柠檬酸)
再加上上一小节选择的感兴趣的主要特性:residual.sugar(残留糖)、free.sulfur.dioxide(游离二氧化硫),总共研究 6 个特性。
此外还观察到:
绝对值最大的相关系数是 fixed.acidity(固定酸度)与 pH 值的相关系数:-0.68。
fixed.acidity(固定酸度)与 citric.acid(柠檬酸)、density(密度)相关系数为:0.67,0.67,呈现出中等强度的正相关。
volatile.acidity(挥发性酸度)与 citric.acid(柠檬酸)相关系数为 -0.55,呈现出中等强度的负相关。
从质量评分 6,7,8 对应的酒精度数的中位数来看,红酒质量越好,酒精度数越高。
可以推测:
对于中等以及中等偏上的红酒,度数越高,红酒质量越好的可能性越大。
但对于中等偏下的红酒来说,酒精度数与红酒质量关系不大。
如果只考虑质量评分大于 4 的红酒数据,得出的相关系数可能更高。
##
## Pearson's product-moment correlation
##
## data: alcohol and quality
## t = 23.962, df = 1534, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4845165 0.5573539
## sample estimates:
## cor
## 0.5218858
相关系数确实从 0.48 上升至 0.52。
随着红酒质量评分由低到高,挥发性酸度逐渐下降,与已知信息挥发性酸含量太高会导致令人不快的醋味相符合。
由此可推断:挥发性酸度值越低,红酒质量越好的可能性越大。
随着红酒质量评分由低到高,硫酸盐中位数呈现不断上升的趋势,但是硫化盐含量超过 1.4 就不再有质量评分 7,8 的红酒了。
可以推测,在硫化盐含量小于 1.4 的情况下,硫化盐含量越高,红酒质量越好的可能性越大,但硫化盐含量超过了 1.4,虽不至于导致红酒质量变的很差,但红酒质量也就中等水平了。
随着红酒质量评分由低到高,柠檬酸含量呈现不断上升的趋势,但是在红酒质量评分为 7 处有较多接近 0 的异常值。
temp <- subset(redwine_quality, quality == 7 & citric.acid < 0.1)
temp$citric.acid
## [1] 0.00 0.02 0.08 0.04 0.09 0.09 0.01 0.02 0.03 0.03 0.01 0.00 0.00 0.02 0.06
## [16] 0.06 0.00 0.00 0.01 0.01 0.00 0.01 0.08 0.07 0.00 0.00 0.02 0.09
这些异常值有待研究,可能是数据错误,也可能是由于某些未知的原因。
如果不考虑这些异常值,可以推断出,柠檬酸含量越高,红酒质量越好的可能性越大,但有上限(图中大概为 0.8)。
去掉上述异常值之后重新计算的相关系数:
with(subset(redwine_quality, !(quality == 7 & citric.acid < 0.1)), cor.test(citric.acid, quality))
##
## Pearson's product-moment correlation
##
## data: citric.acid and quality
## t = 11.302, df = 1569, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.2280138 0.3194967
## sample estimates:
## cor
## 0.2743759
相关系数从 0.23 提升到 0.27,超过了硫酸盐与质量的相关系数 0.25。
与相关系数 0.01 一致,残留糖与红酒质量没有表现出相关性,但是发现一个有趣的也符合现实的现象:
残留糖含量高于 10 之后,质量评分都在 7 以下了。
由此可推测,当残留糖含量高于 10,会影响红酒质量,也就是说,高品质的红酒残留糖含量需低于 10。
与相关系数 -0.05 一致,游离二氧化硫与红酒质量没有表现出相关性,但是根据已知信息:游离二氧化硫浓度超过50 ppm时,二氧化硫在葡萄酒的香气和味道中变得明显。
上述图形中,高于 50 以上,只有质量评分 7 处有几个异常值,粗略推断:高品质红酒的游离二氧化硫含量不会高于 60。
上述的这些特性对红酒的质量有较大影响,而其它特性对红酒质量的影响较小。
fixed.acidity(固定酸度)与 citric.acid(柠檬酸)相关系数为:0.67,呈现出中等强度的正相关。
volatile.acidity(挥发性酸度)与 citric.acid(柠檬酸)相关系数为 -0.55,呈现出中等强度的负相关。
柠檬酸也是一种酸,对酸度值产生影响是合情合理的。
fixed.acidity(固定酸度)与 density(密度)相关系数为:0.67,呈现出中等强度的正相关。
酸度值与密度之间存在中等的相关性是一个有趣的关系,原因暂未可知。
最强的相关关系是 fixed.acidity(固定酸度)与 pH 值,相关系数为 -0.68,原因是 pH 本就是用来衡量酸碱度的指标,酸度越大,pH 值越小。
由上图看出: 质量高的红酒主要分布在左上方,也就是酒精度数越高、挥发性酸度值越低的红酒品质越好的可能性越大。
大部分质量中等的红酒数据集中在:
挥发性酸度值:0.4 - 0.8,酒精度数:9 - 10 之间。
由上图可看出:
质量高的红酒数据主要在图形的上方,质量差的红酒数据更多分布在图形的下方,并且大部分数据的硫化盐集中在 1.0 以下,大部分柠檬酸值也小于 0.75。
大部分红酒数据集中分布在:
残留糖:1 - 10,游离二氧化硫:0 - 40 之间。
密度与固定酸度、酒精的关系:
密度与固定酸度表现了较明显的正相关,并且质量好的红酒数据主要分布在图形的左上方,表现出了质量与固定酸度有轻微的正相关,与密度有轻微的负相关。
酒精度数与密度呈现出中等强度的负相关,与相关系数 -0.5 相符。
比较有趣的是固定酸度与密度之间表现出的中等强度的正相关,值得研究。
对于酒精与密度之间呈现出的中等强度的负相关是可以理解的:
因为酒精的密度小于水的密度,酒精含量越多,红酒的总密度就越小。
## [1] 0.8248906
82.5% 的红酒质量评分为 5,6,为中等品质,评分大于 6 的为品质好的红酒,评分小于 5 的为品质较差的红酒。
红酒的密度与固定酸度呈正相关:固定酸度值越大,红酒的密度也越大。
主要难点在于如何选择与质量相关的主要化学特征:
但是,11 个化学成分的影响错综复杂,很难一个特征表现出明显的影响,更多的可能是多个化学成分综合影响。
分析过程中成功的发现酒精度数、挥发性酸度、硫酸盐、柠檬酸与红酒质量表现出较明显的相关性
红酒质量评分为 7,且柠檬酸值小于 0.1 的异常值是数据错误,还是正常数据。如果是数据错误,那么红酒质量与柠檬酸有较弱的正相关,如果是正常数据,那红酒质量与柠檬酸关系不大,值得更进一步考察数据。
红酒密度与固定酸度的正相关到底是什么原因造成的,值得进一步研究原因。
酒精度数、硫酸盐与红酒质量的相关性是什么原因造成的,值得进一步研究。
如果解决了上述三个问题,可以进一步丰富报告的内容,也可以让报告更有说服力。